12 research outputs found
Detecting sociosemantic communities by applying social network analysis in tweets
International audienceVirtual social networks have led to a new way of communication that is different from the oral one, where the restriction of time and space generates new linguistic practices. Twitter, a medium for political and social discussion, can be analyzed to understand new ways of communication and to explore sociosemiotics aspects that come with the use of the hashtags and their relationship with other elements. This paper presents a quantitative study of tweets, around a fixed hashtag, in relation with other contents that users bring to connection. By calculating the frequency of terms, a table of nodes and edges is created to visualize tweets like graphs. Our study applies social network analysis that, going beyond mere topology, reveals relevant sociosemantic communities providing insights for the comparison of social and political movements
From Tweet to Graph: Social Network Analysis for Semantic Information Extraction
International audienceThis paper represents a study along the cutting edge of the current analysis of online social network in relation with the contents communicated among users. Twitter data is carefully selected around a fixed hash-tag in order to study the specified content in relation with other contents that users bring to connection. A separate network of hash-tags related (in tweets) is constructed for different days; the networks are analyzed within advanced Gephi package, providing several measures -degree, betweenness centrality, communities, as well as the longest path, by which the evolution of communication around specified concepts is quantified. Our study is absolutely in the current trend of analysis of online social networks that, going beyond mere topology, reveals relevant linguistic and social categories and their dynamics
Accès au contenu des thèses numériques par leur structure sémantique
National audienceLes projets de bibliothèques numériques actuels offrent à l’utilisateur l’accès aux thèses à partir d’une recherche qui ne permet pas d’extraire les parties pertinentes de la thèse et ne renvoie que la thèse intégrale. Ainsi, l’utilisateur doit lire des chapitres entiers pour connaître les parties qui correspondent à son besoin. Le projet CITHER (Consultation en texte Intégral des THèses En Réseau ) de l’INSA de Lyon dans lequel s’inscrit cette étude, porte sur la mise en ligne des thèses. Dans ce projet, nous proposons de permettre un accès pertinent au contenu des thèses grâce à l’utilisation de « tags sémantiques » rajoutés, par le doctorant, au sein de sa thèse lors de la rédaction. L’exploitation de ces tags permet de cibler la recherche et ainsi mieux satisfaire l’utilisateur. Notre travail porte d’une part sur la constitution d’une base de concepts utilisés pour le « tagage » de la thèse puis sur la définition d’un nouveau modèle de documents à partir des différentes structures de la thèse
Extracción de estructura a partir de descripciones textuales botánicas
El presente proyecto presenta una solución al problema de análisis
y edición de textos en un dominio de aplicación específico,
así como su inserción a una base de datos. La solución
se propone en el contexto de la Biblioteca Digital Florística (FDL),
la cual se está desarrollando en el Centro de Informática
Botánica del Jardín Botánico de Missouri con la
participación del Laboratorio de Tecnologías Interactivas y
Cooperativas (ICT) de la Universidad de las Américas Puebla (UDLAP).
El objetivo del proyecto FDL es recolectar y publicar información
sobre especies de plantas briofitas y vasculares que crecen en diversas regiones,
incluyendo la Flora de Norteamérica (FNA), la Flora de China (FOC)
y la Flora de Mesoamérica (FM). Sólo en FNA están
participando cerca de 800 autores de documentos llamados tratamientos
taxonómicos y que representan el elemento de información
fundamental de FDL.
Cada tratamiento taxonómico contiene una descripción
morfológica cuya introducción manual, revisión y
edición representa una enorme inversión de tiempo. Esto se
debe principalmente a que las descripciones morfológicas, aunque utilizan
un lenguaje restringido, no observan un formato fijo, sino que cada
descripción contiene un número diferente de características.
La solución que se propone demuestra el potencial del uso de una
gramática en la determinación de la estructura de la
información contenida en un texto determinado dentro de una biblioteca
digital. Dado un texto en formato HTML o formato libre el sistema lo analiza
para presentárselo al usuario con el fin de su verificación
antes de que se actualice la base de datos. Esta transformación es
útil también en el proceso de almacenar descripciones
morfológicas existentes en una base de datos con un formato
preestablecido.
El proyecto forma parte de un sistema, más general, de apoyo a los
autores de descripciones morfológicas. Con su uso se espera agilizar
la construcción de la biblioteca digital además de contribuir
a la investigación en el área de extracción de
información en una biblioteca digital
Adaptive Semantic Annotations for a Digital Library
National audienceAnnotation is a key way in which documents grow and increase in value. This paper explores the possibility to use concepts extracted from documents by using a Natural Language Processing tool to characterize the content of digital theses. Then, using the results of the study, the paper explores the use of annotated theses in order to access to pertinent information stored in these documents and to extract knowledge by an “intelligent” search system
Knowledge Extraction to Improve Information Retrieval in Scientific Documents
International audienceAnnotation is a key way in which documents grow and increase in value. This paper explores the possibility to use concepts extracted from documents by using a Natural Language Processing tool to characterize the content of digital theses. Then, using the results of the study, the paper explores the use of annotated theses in order to access to pertinent information stored in these documents and to extract knowledge by an “intelligent” search system
Conceptualización de Tesis Científicas dentro del Contexto de una Biblioteca Digital mediante el uso de metadatos
International audienceEn los últimos años, el uso de las bibliotecas digitales se ha incrementado hasta llegar hoy en día a convertirse en unimportante portal de información. A pesar de esto, la información contenida en las bibliotecas digitales aún no estádescrita totalmente y su explotación es aún insuficiente. Recientemente, se ha comprobado que la descripción de lainformación usando metadatos puede ser primordial para el mejoramiento de la consulta de la información dentro deuna biblioteca digital. Nuestro enfoque está basado en la creación e introducción de nuevos metadatos capaces dedescribir, en nuestro caso, tesis doctorales. Estos metadatos corresponden a los conceptos más importantes tratados encada una de las tesis. En este artículo analizamos algunas herramientas del Procesamiento del Lenguaje Natural (PLN)capaces de extraer automáticamente los conceptos claves de un determinado grupo de documentos. Posteriormente,presentamos el análisis de la estructura lógica y semántica de las tesis con el fin de crear una base de conceptos queayudará al tesista a caracterizar su tesis durante la redacción. Finalmente, presentamos un nuevo modelo del documentousando el XML Schema, el cual contiene nuevos metadatos y sobre el cual nos basaremos para darle al usuariodurante su búsqueda la información pertinente
Analyzing Polemics Evolution from Twitter Streams Using Author-based Social Networks
International audienceThe construction of social network graphs from online networks data has become nowadays a common track to analyze these data. Typical research questions in this domain are related to profile building, interest’s recommendation, and trending topics prediction. However, few work has been devoted to the analysis of the evolution of very short and unpredictable events, called polemics. Also, experts do not use tools coming from social network graphs analysis and classical graph theory for this analysis. In this way, this article shows that such analysis lead to a colossal amount of data collected from public social sources like Twitter. The main problem is collecting enough evidences about a non-predictable event, which requires capturing a complete history before and during the course of this event, and processing them. To cope with this problem, while waiting for an event, we captured social data without filtering it, which required more than a TB of disk space. Then, we conduct a time-related social network analysis. The first one is dedicated to the study of the evolution of the actor interactions, using time-series built from a total of 33 graph theory metrics. A Big Data pipeline allows us to validate these techniques on a complex dataset of 284 millions of tweets, analyzing 56 days of the Volkswagen scandal
Conception d'une ontologie dans le contexte d'une bibliothèque numérique
International audienc
Proposition d'une nouvelle structure de document pour améliorer la recherche d'information
National audienceActuellement l'information contenue dans les bibliothèques numériques n'est pas totalement décrite et son exploitation est insuffisante. La description de l'information en utilisant des métadonnées nous semble une bonne solution pour envisager une recherche d'information plus pertinente. Notre proposition est fondée sur la création et l'introduction au sein du document de « tags sémantiques » capables de décrire, dans notre cas, des thèses doctorales. Nous présentons l'analyse de quatre outils de Traitement Automatique des Langues (TAL) capables d'extraire automatiquement des concepts. Ensuite, nous proposons une base de concepts fondée sur l'analyse des structures logique et sémantique des thèses. Nous présentons ensuite un nouveau modèle du document, en utilisant le XML Schéma, qui contient les nouveaux « tags sémantiques » sur lesquels nous nous appuierons lors de sessions de recherche pour fournir à l'utilisateur l'information pertinente